Laboratorio en línea para el procesamiento automático de documentos
نویسندگان
چکیده
Resumen. Las grandes cantidades de información textual que actualmente se generan y almacenan digitalmente, junto con la dificultad que existe para analizarla, hace necesario el desarrollo de herramientas que faciliten este trabajo. Existen diferentes campos en las Ciencias de Computación y la Lingǘıstica que en conjunto posibilitan el desarrollo de este tipo de herramientas; en particular una de estas áreas del conocimiento es el Procesamiento de Lenguaje Natural (PLN). El PLN investiga y formula mecanismos computacionalmente efectivos que facilitan la interacción hombre-máquina permitiendo una comunicación mucho más fluida y menos ŕıgida que los lenguajes formales. Sin embargo, para usuarios poco experimentados en este campo, asimilar este tipo de procesos no es algo trivial, situación que desmotiva al uso de las mismas. Con la finalidad de apoyar el desarrollo y la investigación en áreas afines al PLN, en este art́ıculo se presenta un Laboratorio Virtual en Ĺınea para el Procesamiento Automático de Documentos desarrollado en la Universidad, donde se puedan realizar experimentos y ver resultados de forma inmediata, en diferentes tareas relacionadas con el procesamiento automático del lenguaje.
منابع مشابه
Proyecto de indexado automático para documentos en el campo de la física de altas energías
Este proyecto consiste en el desarrollo de un sistema automático de indexado por asignación. El indexado por asignación consiste en la selección de palabras clave dentro de un léxico controlado (en nuestro caso un tesauro) que describan y resuman los conceptos más importantes tratados en un texto dado. El sistema propone palabras clave según el tesauro del laboratorio alemán DESY (Deutsche Elek...
متن کاملWWW como fuente de recursos lingüísticos para su uso en PLN
Resumen Crear un corpus extraído a partir de la Web está lejos de ser una tarea trivial. El elevado grado de heterogeneidad que es usual encontrar en el formato HTML, la gran cantidad de información irrelevante tanto en el sitio Web como dentro de una misma página y otros problemas de diversa índole, dificultan la obtención de un conjunto de documentos de aspecto homogéneo, estructurado y libre...
متن کاملInformación colocacional y recuperación de la información
Este proyecto tiene como objetivo investigar la significación de la información colocacional en Recuperación de la información (RI). Una colocación es una relación entre dos unidades léxicas (UL) L1 y L2 tal que para expresar un significado específico en relación con L1 la elección de L2 no es libre (Mel' uk 1995). Así, para expresar el sentido 'hacer lo que está previsto que se debe hacer' en ...
متن کاملUna Propuesta para el Etiquetado Automático de Roles Semánticos
Resumen: La identificación de los roles semánticos es una parte crucial en tareas que involucran tratamiento automático del lenguaje natural como la extracción y recuperación de información, sistemas de búsquedas de respuestas, generación de resúmenes, traducción automática, etc. Para el caso del español, la investigación en roles semánticos es escasa. El objetivo del actual trabajo es analizar...
متن کاملGeneración automática de resümenes personalizados
Resumen. En la actualidad los servicios de información presentes en la Web y en particular los periódicos digitales ofrecen a los usuarios una selección de documentos basada en criterios bastante simples que lleva a los usuarios a recibir una gran cantidad de información irrelevante. Nuestro trabajo pretende disminuir la sobrecarga de los usuarios de dos maneras: aportando un modelo de usuario ...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
- Research in Computing Science
دوره 72 شماره
صفحات -
تاریخ انتشار 2014